编者寄语

知识图谱方法、技术与应用正在新一代人工智能由“感知智能”迈向“认知智能”的过程中扮演重要角色。知识图谱赋能的新一代信息系统也在数字化转型过程中发挥着重要作用。知识图谱理论与技术是人工智能与计算机领域的交叉融合,涉及到知识工程、自然语言处理、机器学习、数据管理、信息系统、可视化等多个方向。近年来,随着大规模知识图谱的发布,知识图谱赋能的信息检索、智能问答、智能推荐等系统已逐渐应用到包括金融、教育、医疗在内的多个领域。目前,国内外的学术界和产业界均着力在理论、技术与系统层面对知识图谱进行研究与开发。

本期焦点整合了CCF会刊及相关会议资源。内容涵盖了知识图谱的全生命周期,包括:知识图谱构建、知识图谱数据管理、知识图谱表示学习、知识图谱推理与预测、知识图谱赋能的领域应用等。本期焦点旨在梳理我国在知识图谱相关方向上的最新进展,为读者了解知识图谱前沿领域的最新研究情况提供帮助。

目录

资料格式

“智慧教育”专题

知识图谱进展与趋势

新一代知识图谱信息系统的研究进展与趋势

近年来,国内外在基于知识图谱的信息系统技术理论方面取得了一定进展,以信息系统为载体的知识图谱典型应用也逐渐走进各个行业领域,包括智能问答、推荐系统、个人助手等。然而,在大数据环境和新基建背景下,数据对象和交互方式的日益丰富和变化,对新一代知识图谱信息系统在基础理论、体系架构、关键技术以及服务应用方面提出新的需求,带来新的挑战。本报告将综述国内外知识图谱新一代信息系统的研究发展现状,对国内外研究的最新进展进行归纳、比较和分析,并结合国家发展战略和重大应用需求,选取与我国国计民生密切相关的多个领域,从微服务到典型应用分析总结新一代知识图谱信息系统的行业进展。最后,就未来的技术挑战和研究方向进行展望。

格式:
视频
知识图谱赋能数字化转型

知识图谱是一种重要的数据基础设施,数据的知识化和网络化也是数字化改革的重要发展方向。本次论坛以“知识图谱赋能数字化转型”为主题,探讨知识图谱在激活数据要素潜能,推动数字经济、数字社会、数字政府建设等方面的广泛价值与作用,具体结合知识图谱技术及应用的最新发展趋势,从构建知识图谱的价值网络,大规模知识图谱的联邦训练与计算模型,云边端一体的企业级知识计算平台,开放知识的可信及公平性等多个问题展开。

格式:
视频
知识图谱数据管理研究综述

知识图谱是人工智能的重要基石.各领域大规模知识图谱的构建和发布对知识图谱数据管理提出了新的挑战.以数据模型的结构和操作要素为主线,对目前的知识图谱数据管理理论、方法、技术与系统进行研究综述.首先,介绍知识图谱数据模型,包括RDF图模型和属性图模型,介绍5种知识图谱查询语言,包括SPARQL、Cypher、Gremlin、PGQL和G-CORE;然后,介绍知识图谱存储管理方案,包括基于关系的知识图谱存储管理和原生知识图谱存储管理;其次,探讨知识图谱上的图模式匹配、导航式和分析型3种查询操作.同时,介绍主流的知识图谱数据库管理系统,包括RDF三元组库和原生图数据库,描述目前面向知识图谱的分布式系统与框架,给出知识图谱评测基准.最后,展望知识图谱数据管理的未来研究方向.

格式:
文章
面向知识图谱的知识推理研究进展

近年来,随着互联网技术和应用模式的迅猛发展,引发了互联网数据规模的爆炸式增长,其中包含大量有价值的知识.如何组织和表达这些知识,并对其进行深入计算和分析备受关注.知识图谱作为丰富直观的知识表达方式应运而生.面向知识图谱的知识推理是知识图谱的研究热点之一,已在垂直搜索、智能问答等应用领域发挥了重要作用.面向知识图谱的知识推理旨在根据已有的知识推理出新的知识或识别错误的知识.不同于传统的知识推理,由于知识图谱中知识表达形式的简洁直观、灵活丰富,面向知识图谱的知识推理方法也更加多样化.将从知识推理的基本概念出发,介绍近年来面向知识图谱知识推理方法的最新研究进展.具体地,根据推理类型划分,将面向知识图谱的知识推理分为单步推理和多步推理,根据方法的不同,每类又包括基于规则的推理、基于分布式表示的推理、基于神经网络的推理以及混合推理.详细总结这些方法,并探讨和展望面向知识图谱知识推理的未来研究方向和前景

格式:
文章
知识图谱综述:表示、构建、推理与知识超图理论

针对知识图谱(KG)在知识驱动的人工智能研究中发挥的强大支撑作用,分析并总结了现有知识图谱和知识超图技术。首先,从知识图谱的定义与发展历程出发,介绍了知识图谱的分类和架构;其次,对现有的知识表示与存储方式进行了阐述;然后,基于知识图谱的构建流程,分析了各类知识图谱构建技术的研究现状。特别是针对知识图谱中的知识推理这一重要环节,分析了基于逻辑规则、嵌入表示和神经网络的三类典型的知识推理方法。此外,以异构超图引出知识超图的研究进展,并提出三层架构的知识超图,从而更好地表示和提取超关系特征,实现对超关系数据的建模及快速的知识推理。最后,总结了知识图谱和知识超图的典型应用场景并对未来的研究作出了展望。

格式:
文章
面向知识图谱的知识推理综述

随着智能化水平的不断提高, 每时每刻都有大量的新知识产生, 知识图谱逐渐成为我们管理知识的工具之一. 但现有的知识图谱仍然存在属性缺失、关系稀疏等问题, 同时还存在大量噪声信息, 导致图谱质量不佳, 易对自然语言处理领域中的各类任务造成影响. 面向知识图谱的知识推理技术作为目前的研究热点, 是解决该问题的主要方法, 其通过模拟人的推理过程完成对图谱信息的完善, 在众多应用中有较好表现. 以知识图谱为切入点, 将知识推理技术按类别划分并分别阐释, 详细分析该技术的几种应用任务, 例如智能问答、推荐系统等, 最后对未来主要研究方向进行展望, 提出几种研究思路.

格式:
文章

知识图谱构建及关键技术

代码知识图谱构建及智能化软件开发方法研究

智能化软件开发正在经历从简单的代码检索到语义赋能的代码自动生成的转变,传统的语义表达方式无法有效地支撑人、机器和代码之间的语义交互,探索机器可理解的语义表达机制迫在眉睫.首先指出了代码知识图谱是实现智能化软件开发的基础,进而分析了大数据时代智能化软件开发的新特点以及基于代码知识图谱进行智能化软件开发的新挑战;随后回顾了智能化软件开发和代码知识图谱的研究现状,指出了现有智能化软件开发的研究仍然处于较低水平,而现有知识图谱的研究主要面向开放领域知识图谱,无法直接应用于代码领域知识图谱.因此,从代码知识图谱的建模与表示、构建与精化、存储与演化管理、查询语义理解以及智能化应用这5个方面详细探讨了研究新趋势,以更好地满足基于代码知识图谱进行智能化软件开发的需要.

格式:
文章
一种准确而高效的领域知识图谱构建方法

作为语义网的数据支撑,知识图谱在知识问答、语义搜索等领域起着至关重要的作用,一直以来也是研究领域和工程领域的一个热点问题,但是,构建一个质量较高、规模较大的知识图谱往往需要花费巨大的人力和时间成本.如何平衡准确率和效率、快速地构建出一个高质量的领域知识图谱,是知识工程领域的一个重要挑战.对领域知识图谱构建方法进行了系统研究,提出了一种准确、高效的领域知识图谱构建方法——"四步法",将该方法应用到中国基础教育九门学科知识图谱的构建中,在较短时间内构建出了准确率较高的学科知识图谱,证明了该方法构建领域知识图谱的有效性.以地理学科知识图谱为例,使用"四步法"共得到67万个实例、1 421万条三元组,其中,标注数据的学科知识覆盖率和知识准确率均在99%以上

格式:
文章
知识图谱构建技术:分类、调查和未来方向

知识图谱的概念由谷歌于2012年提出,随后逐渐成为人工智能领域的一个研究热点,已在信息搜索、自动问答、决策分析等应用中发挥作用。虽然知识图谱在各领域展现出了巨大的潜力,但不难发现目前缺乏成熟的知识图谱构建平台,需要对知识图谱的构建体系进行研究,以满足不同的行业应用需求。文中以知识图谱构建为主线,首先介绍目前主流的通用知识图谱和领域知识图谱,描述两者在构建过程中的区别;然后,分类讨论图谱构建过程中存在的问题和挑战,并针对这些问题和挑战,分类描述目前图谱构建过程中的知识抽取、知识表示、知识融合、知识推理、知识存储5个层面的解决方法和策略;最后,展望未来可能的研究方向。

格式:
文章
医学知识图谱构建关键技术及研究进展

随着互联网技术的不断迭代更新,对海量数据的语义理解变得越来越重要。知识图谱是一种揭示实体之间关系的语义网络,医学是知识图谱应用较广的垂直领域之一,医学知识图谱的构建也是目前国内外人工智能领域研究的热点。从医学知识图谱本体构建出发,依次对命名实体识别、实体关系抽取、实体对齐、实体链接、知识图谱存储、知识图谱应用进行综述,详细介绍了近年来医学知识图谱构建过程中涉及的难点、现有技术、挑战及未来研究方向,并介绍了医学知识图谱应用,最后对未来发展方向进行了展望。

格式:
文章
事件图谱的构建、推理与应用

近些年,知识图谱的构建技术得到了极大的发展,构建好的知识图谱已经被应用到众多领域。在此基础上,研究者将目光从知识图谱转向事件图谱。事件图谱以事件为核心,准确地描述了事件信息以及事件之间的关联关系。基于此,总结了事件图谱在构建、推理与应用方面的关键技术,主要包括事件抽取、事件信息补全、事件关系推断以及事件预测技术。给出了事件图谱的具体应用场景,并且针对事件图谱研究中存在的挑战,对未来的研究趋势进行了展望。

格式:
文章
基于大数据的软件项目知识图谱构造及问答方法

随着软件规模的不断扩大、软件演化周期的不断延长,构建软件项目知识图谱对软件维护、软件开发的意义越来越重大。如何基于软件项目开发过程中产生的源代码、邮件列表、缺陷报告等多源异构大数据,快速构建语义关联丰富的软件知识图谱,是软件工程领域亟待解决的关键问题。提出了以代码结构为核心的软件知识图谱模型,建立了“知识抽取-知识融合”两层软件知识图谱构造框架,该框架支持软件项目知识图谱的自动构造以及基于知识图谱的软件项目智能问答,有效提高了软件项目理解和软件复用的效率。目前,软件项目知识图谱已经在Apache开源社区以及国内著名软件企业成功展开应用实践。

格式:
文章
意图知识图谱的构建与应用

政府治理的效果评估是一个难题。没有很好的评估方法和评估体系,政府治理的效果就不能得到很好的保障。提出从自然语言问答的角度理解网民在政府治理话题中的意图,并通过构建意图知识图谱,关联语义等价的问题和意图。不同意图又通过实体的相互关联,支持意图的关联和对比。给出了意图知识图谱的定义、构建框架和政府治理场景的使用范例,展示了意图知识图谱是解决政府治理的效果评估问题的一种有效方法。在政府治理的场景中,利用意图知识图谱可以分析对比同一治理话题下不同治理主体之间的意图场,从而深入剖析特定治理主体在特定治理话题下的效果,并发现治理中存在的问题。

格式:
文章
古诗词图谱的构建及分析研究

古诗词是中国宝贵的文化遗产.利用计算机对诗词进行辅助研究,对语言、文学、传承普及中华文化,具有重要意义.然而,关于诗词的知识是高度碎片化的,原因是互联网上的诗词知识,不仅存在于诗词本身,还分布于诗词的各种解读资料,比如诗词的注释、译文、赏析等.若以知识图谱的方式,捕捉古诗词中词语之间潜在的语义联系并将它们以知识的方式关联起来,能够将诗词碎片化的知识有条理地整合在一起,从而更好地对古诗词知识进行推理和分析.基于此,提出了一种古诗词知识图谱的构建方法.构建图谱的节点时,首先利用改进的Apriori算法产生诗词中的候选词,然后检验候选词是否出现在诗词注释和中文词典中,从而判断其是否构成图谱节点.构建图谱的边时,首先利用注释信息在词语之间建立语义联系,然后用人工构建的诗词分类体系在抽象的语义之间建立联系.最终得到一个内容覆盖全面且包含多层词语语义联系的古诗词图谱.古诗词图谱可用于对诗词各种不同维度的分析研究,相比于基于字的数据分析,利用古诗词图谱能够从语义的角度更加深入具体地辅助文学研究.以唐诗为例,说明了古诗词图谱在诗词分析中的必要性.此外,古诗词图谱还适用于各种关于诗词的推理和分析任务,以判定诗词题材和分析诗词情感这2个任务为例,证明了古诗词图谱的有效性和应用价值.

格式:
文章
知识图谱构建和行业应用实践

随着知识图谱在2012年被提出以后,作为机器实现“认知智能”的关键技术,目前已经在包括语义搜索、智能问答、智能推荐以及决策分析等多种业务场景中得到了广泛的应用。达观数据研发的知识图谱产品,赋能金融、制造、电力、航空、能源等多个行业,大幅提升企业效能。本次报告主要介绍达观数据在知识图谱方面的产品功能和架构设计、图谱构建、KBQA等方面的工程实践以及行业落地案例。

格式:
视频

知识图谱表示学习

Modeling the Correlations of Relations for Knowledge Graph Embedding

Knowledge graph embedding, which maps the entities and relations into low-dimensional vector spaces, has demonstrated its effectiveness in many tasks such as link prediction and relation extraction. Typical methods include TransE, TransH, and TransR. All these methods map different relations into the vector space separately and the intrinsic correlations of these relations are ignored. It is obvious that there exist some correlations among relations because different relations may connect to a common entity. For example, the triples (Steve Jobs, PlaceOfBrith, California) and (Apple Inc., Location, California) share the same entity California as their tail entity. We analyze the embedded relation matrices learned by TransE/TransH/TransR, and find that the correlations of relations do exist and they are showed as low-rank structure over the embedded relation matrix. It is natural to ask whether we can leverage these correlations to learn better embeddings for the entities and relations in a knowledge graph. In this paper, we propose to learn the embedded relation matrix by decomposing it as a product of two low-dimensional matrices, for characterizing the low-rank structure. The proposed method, called TransCoRe (Translation-Based Method via Modeling the Correlations of Relations), learns the embeddings of entities and relations with translation-based framework. Experimental results based on the benchmark datasets of WordNet and Freebase demonstrate that our method outperforms the typical baselines on link prediction and triple classification tasks.

格式:
文章
规则引导的知识图谱联合嵌入方法

近年来,大量研究工作致力于知识图谱的嵌入学习,旨在将知识图谱中的实体与关系映射到低维连续的向量空间中.且所学习到的嵌入表示已被成功用于缓解大规模知识图谱的计算效率低下问题.然而,大多数现有嵌入学习模型仅考虑知识图谱的结构信息.知识图谱中还包含有丰富的上下文信息和文本信息,它们也可被用于学习更准确的嵌入表示.针对这一问题,提出了一种规则引导的知识图谱联合嵌入学习模型,基于图卷积网络,将上下文信息与文本信息融合到实体与关系的嵌入表示中.特别是针对上下文信息的卷积编码,通过计算单条上下文信息的置信度与关联度来度量其重要程度.对于置信度,定义了一个简单有效的规则并依据该规则进行计算.对于关联度,提出了一种基于文本表示的计算方法.最后,在2个基准数据集上进行的实验结果证明了模型的有效性.

格式:
文章
基于图神经网络的知识图谱研究进展

近年来,描述常识和事实的知识图谱成为学术界和工业界广泛使用的知识表示方式,图神经网络在学习属性和结构的特征表示展现了优秀的性能。考虑到知识图谱本身恰好就是一种图结构数据,因此采用图构建知识和数据之间的关联,同时应用图神经网络技术,有望结合知识和数据实现更好的可解释和可信人工智能技术。一方面,利用图神经网络在结构表示学习上的优势,可以更好地帮助构建知识图谱;另一方面,利用图神经网络在信息传播和推理上的优势,可以更有效地在应用任务中引入知识图谱中的信息,从而提升应用性能。本报告将首先简要介绍知识图谱和图神经网络的研究进展,然后将对知识图谱与图神经网络模型相融合的方法及应用进行综述讲解。

格式:
视频
知识图谱嵌入技术研究进展

知识图谱嵌入(KGE)是知识图谱领域一个新的研究热点,旨在利用词向量的平移不变性将知识图谱中实体和关系嵌入到低维向量空间,进而完成知识表示。以解决实际问题的类型为划分依据,首先,阐述了四类主要的知识图谱嵌入方法,包括基于深度学习的方法、基于图形特征的方法、基于翻译模型的方法以及基于其他模型的方法,对每种模型的算法思想进行详细阐述,总结了每种模型的优缺点;其次,从常用数据集、评价指标、算法、实验四方面对知识图谱嵌入算法实验进行分析与归纳,对嵌入方法做了横纵向对比;最后,从解决实际问题的角度出发,给出了知识图谱嵌入技术未来的发展方向。通过研究,发现在基于深度学习的方法中,LCPE模型的效果最好;在基于图形特征的方法中,TCE模型的效果最好;在基于翻译模型的方法中,NTransGH模型的效果最好。今后的研究可以在LCPE、TCE、NTransGH的基础上进行拓展,不断提高链接预测和三元组分类的实验效果。

格式:
文章
知识图谱嵌入研究综述

随着互联网技术和应用模式的迅猛发展,表达方式丰富直观的知识图谱得到了大量关注,在知识表示学习方面积累了丰富研究成果,这些研究已在垂直搜索、智能问答等应用领域发挥了重要作用。在总结现有知识图谱嵌入研究基础之上,以面向的知识图谱数量为依据,将知识图谱嵌入模型分为面向单个知识图谱的链接预测模型和面向多个知识图谱的实体对齐模型两大类;逐类分析了知识图谱嵌入模型的标准处理流程,并在模型假设、实现方法、语义捕获层次等方面做了详细对比;通过充分探讨现有知识图谱嵌入模型存在的问题,展望了知识图谱嵌入的未来研究方向。

格式:
文章
InterTris:三元交互的领域知识图谱表示学习

在新事物不断涌现,且事物之间联系不断丰富的时代背景下,作为一项新生技术,知识图谱旨在对现实世界中概念或实体及其之间的联系进行建模.由于直接来自于现实世界,知识图谱中的实体和关系往往以符号化形式表示.要实现进一步的价值挖掘,进行知识图谱计算,就需要将符号化表示转换为数值形式.知识图谱表示学习技术应运而生.目前,知识图谱表示学习已得到很大发展.依据应用领域不同,可以将知识图谱划分为通用领域和特定领域两种.已有表示学习模型多面向通用领域构建,且在通用领域的样本数据上进行验证.如果将这些模型运用到特定领域,就会面临新的数据分布挑战.为解决特定领域的知识图谱表示学习问题,本文以栖息地知识图谱和用户消费行为知识图谱为例进行了数据特征分析,发现特定领域知识图谱的数据特征不仅与通用领域不同,且不同领域之间的分布也各有特点.所以,我们从比数据分布更抽象的角度,即基于知识图谱构建语义联系的本质特征,以三元组为建模粒度,对头实体、关系和尾实体之间的交互作用进行了充分拟合,提出InterTris模型.同时,基于家谱领域的公共知识图谱Kinship、微生物领域的酶知识图谱样本ES、微生物领域的栖息地知识图谱样本LiveIn和电子商务领域的用户消费行为知识图谱样本UserAct共计四个数据集,以部分较优的转换模型和组合模型为基线,通过链接预测和三元组分类两组实验,本文发现InterTris在四个数据集上都取得了整体最优的效果,充分证明了在三元组粒度进行交互建模的必要性和合理性.

格式:
文章
图神经网络前沿进展与应用

图结构数据是现实生活中广泛存在的一类数据形式.宏观上的互联网、知识图谱、社交网络数据,微观上的蛋白质、化合物分子等都可以用图结构来建模和表示.由于图结构数据的复杂性和异质性,对图结构数据的分析和处理一直是研究界的难点和重点.图神经网络(Graph Neural Network,GNN)是近年来出现的一种利用深度学习直接对图结构数据进行学习的框架,其优异的性能引起了学者高度的关注和深入的探索.通过在图中的节点和边上制定一定的策略,GNN将图结构数据转化为规范而标准的表示,并输入到多种不同的神经网络中进行训练,在节点分类、边信息传播和图聚类等任务上取得优良的效果.与其他图学习算法相比较,GNN能够学习到图结构数据中的节点以及边的内在规律和更加深层次的语义特征.由于具有对图结构数据强大的非线性拟合能力,因此在不同领域的图相关问题上,GNN都表现出更高的准确率和更好的鲁棒性.本文在现有GNN研究的基础上,首先概述了GNN的出现历程,并介绍了相关概念和定义.之后本文着重讨论和对比了GNN中的各种算法框架,包括核心思想、任务划分、学习方式、优缺点、适用范围、实现成本等.此外,本文对GNN算法在多个不同领域下的应用场景进行了详细的阐述,将GNN与其他图学习算法的优缺点作了联系和比较.针对存在的一些问题和挑战,本文勾画了GNN的未来方向和发展趋势,最后对全文进行了全面而细致的总结.

格式:
文章

知识图谱与自然语言处理

融合文本概念化与网络表示的观点检索

观点检索是自然语言处理领域中的一个热点研究课题.现有的观点检索模型在检索过程中往往无法根据上下文将词汇进行知识、概念层面的抽象,在语义层面忽略词汇之间的语义联系,观点层面缺乏观点泛化能力.因此,提出一种融合文本概念化与网络表示的观点检索方法.该方法首先利用知识图谱分别将用户查询和文本概念化到正确的概念空间,并利用网络表示将知识图谱中的词汇节点表示成低维向量,然后根据词向量推出查询和文本的向量,并用余弦公式计算用户查询与文本的相关度,接着引入基于统计机器学习的分类方法挖掘文本的观点.最后,利用概念空间、网络表示空间以及观点分析结果构建特征,并服务于观点检索模型.相关实验结果表明,所提出的检索模型可以有效提高多种检索模型的观点检索性能.其中,基于统一相关模型的观点检索方法在两个实验数据集上相比于基准方法,在MAP评价指标上分别提升了6.1%和9.3%,基于排序学习的观点检索方法在两个实验数据集上相比于基准方法,在MAP评价指标上分别提升了2.3%和14.6%

格式:
文章
大规模知识图谱预训练模型及电商应用

近年来,知识图谱因具有以统一的方式组织数据等优势,被广泛应用于许多需要知识的任务,并且在电子商务领域大放光彩。然而知识服务通常需要烦琐的数据选择和知识注入模型的设计,这会给业务带来不良影响。为了更好地解决这一问题,提出了“预训练+知识向量服务”的模式,并设计了知识图谱预训练模型(PKGM),在不直接访问商品知识图谱中三元组数据的情况下,以知识向量的方式为下游任务提供知识图谱服务。在商品分类、同款商品识别和商品推荐等知识图谱下游任务中进行测试,实验结果表明,知识图谱预训练模型能够有效地提高每个任务的性能。

格式:
文章
知识图谱多跳问答推理研究进展、挑战与展望

近年来,知识图谱问答在医疗、金融、政务等领域被广泛应用。用户不再满足于关于实体属性的单跳问答,而是更多地倾向表达复杂的多跳问答需求。为了应对上述复杂多跳问答,各种不同类型的推理方法被陆续提出。系统地介绍了基于嵌入、路径、逻辑的多跳知识问答推理的最新研究进展以及相关数据集和评测指标,并重点围绕前沿问题进行了讨论。最后总结了现有方法的不足,并展望了未来的研究方向。

格式:
文章
基于知识图谱的抗疫意见领袖热点话题检测与分析

新型冠状病毒(COVID-19)疫情爆发期间,涌现出了众多的抗疫意见领袖。通过对意见领袖话题传播和演化进行分析研究,可以为网络舆情治理和疫情防控提供理论和知识支撑。采用N-Gram语言模型和Shingling相似度算法相结合的方式进行话题检测,再通过Neo4j图数据库存储与检索意见领袖、话题、事件等多维实体特征,构建以意见领袖为核心的话题图谱。实验结果表明,话题准确率达82.3%,召回率达81.6%,与传统Single-Pass聚类相似度算法相比均有所提高。通过对图谱分析,能够简单直观地展示出不同实体间多维舆情关系。同时,可以提高检索速度和分析效率,符合舆情传播客观规律。

格式:
文章
基于图匹配网络的可解释知识图谱复杂问答方法

知识图谱问答是人工智能领域的研究热点之一.在该任务中,自然语言问句结构与知识图谱结构之间的语义匹配是一个具有挑战的研究问题.现有工作主要利用深度学习技术对自然语言问句进行序列化编码,然后与知识图谱子图计算语义匹配,这样做法未充分利用复杂问句的结构信息,方法也缺乏可解释性.针对此问题,提出一种基于图匹配网络的知识图谱复杂问答方法TTQA.首先,通过语法分析方法,构建一个与知识图谱无关的未定查询图.然后,依据未定查询图和给定的知识图谱,构建一个与知识图谱相关的已定查询图,在其中,提出一种图匹配网络GMN,通过结合预训练语言模型和图神经网络技术,再利用注意力机制学习查询结构的上下文表示,从而得到更加丰富的结构匹配表示,用于已定查询图预测.在2个复杂问答数据集LC-QuAD 1.0和ComplexWebQuestions 1.1进行实验,结果表明:TTQA超过了现有方法.同时,通过消融实验验证了GMN的有效性.此外,TTQA生成的未定结构图和已定查询图增强了问答系统可解释性.

格式:
文章
开放领域知识图谱问答研究综述

知识图谱问答是通过处理用户提出的自然语言问题,基于知识图谱的某种形式,从中获取相关答案的过程。由于知识规模、计算能力及自然语言处理能力的制约,早期知识库问答系统被应用于限定领域。近年来,随着知识图谱的发展,以及开放领域问答数据集的陆续提出,知识图谱已用于开放领域问答研究与实践。以技术发展为主线,对开放领域知识图谱问答进行综述。首先,介绍五种基于规则模板的开放领域知识图谱问答方法:传统语义解析、传统信息检索、三元组匹配、话语模板和查询模板,这类方法主要依赖人工定义的规则模板完成问答工作。其次,描述五种基于深度学习的方法,这类方法采用神经网络模型完成问答过程的各类子任务,包括知识图谱嵌入、记忆网络、基于神经网络的语义解析、基于神经网络的查询图、基于神经网络的信息检索。接着,介绍开放领域知识图谱问答常用的4个通用领域知识图谱和11个开放领域问答数据集。随后,按照问题的难易程度选择3个经典问答数据集比较各问答系统的性能指标,对比不同方法间的性能差异并进行分析。最后,展望开放领域知识图谱问答的未来研究方向。

格式:
文章

知识图谱赋能应用

KGDB:统一模型和语言的知识图谱数据库管理系统

知识图谱是人工智能的重要基石,其目前主要有RDF图和属性图两种数据模型,在这两种数据模型之上有数种查询语言.RDF图上的查询语言为SPARQL,属性图上的查询语言主要为Cypher.10年来,各个社区开发了分别针对RDF图和属性图的不同数据管理方法,不统一的数据模型和查询语言限制了知识图谱的更广泛应用.KGDB(knowledge graph database)是统一模型和语言的知识图谱数据库管理系统:(1)以关系模型为基础,提出了统一的存储方案,支持RDF图和属性图的高效存储,满足知识图谱数据存储和查询负载的需求;(2)使用基于特征集的聚类方法解决无类型实体的存储问题;(3)实现了SPARQL和Cypher两种不同知识图谱查询语言的互操作性,使其能够操作同一个知识图谱.在真实数据集与合成数据集上进行的大量实验表明:KGDB与已有的知识图谱数据库管理系统相比,不仅能够提供更加高效的存储管理,而且具有更高的查询效率.KGDB平均比gStore和Neo4j节省了30%的存储空间,基本图模式查询上的实验表明:在真实数据集上的查询速度普遍高于gStore和Neo4j,最快可提高2个数量级.

格式:
文章
面向操作系统可靠性保障的开源软件供应链

软件可靠性是软件工程领域中的研究热点之一,故障率分析是软件可靠性的典型研究方法.然而,软件构建模式已从单体模式演进到以开源软件为代表的规模化协作模式,操作系统作为代表性产物之一,所含开源软件之间通过组合关系和依赖关系,形成了一个包含上万节点的供应关系网络.典型方法缺乏对供应关系的考量,无法准确识别和评估因此而引入的软件可靠性问题.把供应链概念体系拓展到开源软件领域,提出一种基于知识的面向开源协作模式下软件供应可靠性的管理方法:面向开源软件生态进行本体设计,构建开源软件知识图谱,实现知识的提取、存储和管理,以知识为驱动,结合传统的供应链管理方法,提出一组面向开源软件供应链的可靠性管理方法,构成一套开源软件供应链管理系统.实验以Linux操作系统发行版的构建为例,展示了开源软件供应链对操作系统可靠性的支撑能力.结果表明,开源软件供应链将有助于理清和评估大型复杂系统软件的可靠性风险.

格式:
文章
智能家居情境感知服务的运行时建模与执行方法

随着智能家居基础设施的不断发展,智能家居逐渐进入以智能服务为特征的新时期.大量复杂、异构的智能设备相互协同,构成海量、智能、集成的智能家居应用.其中,情境感知服务根据服务对象所处情境的变化为其提供准确的服务,是智能家居应用的典型代表.目前,情境感知服务往往面向场景进行构建,其设备多样性和服务随需性给应用开发带来极大的挑战.开发者需要熟悉设备管理接口、进行接口调用和交互,同时,理解服务功能和质量需求,进行管理逻辑的编写.为了快速定制和开发情境感知服务,将知识图谱引入开发过程,提出一种智能家居情境感知服务的运行时建模与执行方法:首先,提出智能家居情境感知服务知识图谱概念模型,定义其情境中各种概念和关系;其次,提出智能家居情境感知服务知识图谱实例模型的构造与维护机制,通过运行时概念、关系实例表示情境知识;最后,提出基于知识推理的智能家居情境感知服务执行方法,通过知识推理自动执行设备功能.面向实际场景,构建智能家居原型系统.实验结果显示,该方法能够实现情境感知服务运行时建模与执行,其代码减少量超过90%.

格式:
文章
一种元路径下基于频繁模式的实体集扩展方法

实体集扩展是指已知某个特定类别的几个种子实体,根据一定的规则得到该类别的更多实体.作为一种经典的数据挖掘任务,实体集扩展已经有很多的应用,诸如字典建立、查询建议等.现有的实体集扩展主要是基于文本或网页信息,即实体之间的关系从其在文本或者网页中的共现来推断.随着知识图谱研究的兴起,根据知识图谱中知识的共现来研究实体集扩展也成为了一种可能.主要研究知识图谱中的实体集扩展问题,即:给定几个种子实体,利用知识图谱来得到更多的同类别的实体.首先,把知识图谱建模成一个异质信息网络,即含有多种实体类型或者关系类型的网络,提出了一种新的元路径下基于频繁模式的实体集扩展方法,称为FPMP_ESE.FPMP_ESE采用异质信息网络中的元路径来捕捉种子实体之间的潜在共同特征.为了找到种子实体之间重要的元路径,设计了一种新的基于频繁模式的元路径自动产生算法FPMPG.之后,为了更好地给每条元路径分配相应的权重,设计了启发式的方法和PUlearning的方法.最后,在真实数据集Yago上的实验结果表明,所提出方法较其他方法在实体集扩展任务上具有更好的性能和更高的效率

格式:
文章
实体搜索综述

与传统的以网页页面集合的方式呈现搜索结果不同,实体搜索的结果是实体或实体集合,其优点是无需用户在纷杂的网页里面进行二次查找,更能提升用户的搜索体验.实体搜索的任务可以分为相关实体搜索和相似实体搜索.对近年来这两类任务的实体搜索技术进行综述.首先给出了实体搜索的形式化定义,并介绍了常用的评测指标;然后,对两种不同形式的实体搜索任务在两类数据源(非结构化数据集和结构化数据集)上的主要研究方法进行了详细的阐述和对比;最后,对未来的研究内容和发展方向进行了探讨和展望.

格式:
文章
学术引用信息可视化方法综述

学术文献中蕴含着丰富的引用信息,文献引用是科研评价和文献计量领域的主要分析对象和研究热点。相比基于数学和统计学的定量分析方法,利用可视化方法既可以实现引用信息时序、层次结构的直观呈现,也可以实现复杂引用网络的交互式挖掘,对科研评价改革和文献计量方法创新具有重要意义。文中首先介绍了近年来国内外学术引用信息分析的相关研究,总结了学术引用信息可视化的一般框架;然后根据实体评价和文献计量两类应用场景对可视化方法进行分类,详细阐述了可视化方法在两类应用场景中的研究现状和优缺点;最后指出了学术引用信息可视化面临的挑战和进一步探索的方向。

格式:
文章
Constructing an Educational Knowledge Graph with Concepts Linked to Wikipedia

To use educational resources efficiently and dig out the nature of relations among MOOCs (massive open online courses), a knowledge graph was built for MOOCs on four major platforms:Coursera, EDX, XuetangX, and ICourse. This paper demonstrates the whole process of educational knowledge graph construction for reference. And this knowledge graph, the largest knowledge graph of MOOC resources at present, stores and represents five classes, 11 kinds of relations and 52 779 entities with their corresponding properties, amounting to more than 300 000 triples. Notably, 24 188 concepts are extracted from text attributes of MOOCs and linked them directly with corresponding Wikipedia entries or the closest entries calculated semantically, which provides the normalized representation of knowledge and a more precise description for MOOCs far more than enriching words with explanatory links. Besides, prerequisites discovered by direct extractions are viewed as an essential supplement to augment the connectivity in the knowledge graph. This knowledge graph could be considered as a collection of unified MOOC resources for learners and the abundant data for researchers on MOOC-related applications, such as prerequisites mining.

格式:
文章
PetroKG: Construction and Application of Knowledge Graph in Upstream Area of PetroChina

There is a large amount of heterogeneous data distributed in various sources in the upstream of PetroChina. These data can be valuable assets if we can fully use them. Meanwhile, the knowledge graph, as a new emerging technique, provides a way to integrate multi-source heterogeneous data. In this paper, we present one application of the knowledge graph in the upstream of PetroChina. Specifically, we first construct a knowledge graph from both structured and unstructured data with multiple NLP (natural language progressing) methods. Then, we introduce two typical knowledge graph powered applications and show the benefit that the knowledge graph brings to these applications:compared with the traditional machine learning approach, the well log interpretation method powered by knowledge graph shows more than 7.69% improvement of accuracy.

格式:
文章
基于张量分解的知识超图链接预测模型

知识超图包含了现实世界中的事实,并给出这些事实的结构化表示.但知识超图无法包括所有事实,所以其是高度不完整的.链接预测方法致力于根据现有实体间链接推理缺失链接,因此广泛应用于知识库补全.目前大多数研究集中于二元关系知识图谱的补全.然而,现实世界中实体间的关系通常是非二元的,即关系中涉及的实体通常多于2个.相较于知识图谱,知识超图能够以一种灵活且自然的方式来表示这些复杂的多元关系.对此,设计一个基于张量分解的知识超图链接预测模型Typer,显式地为不同关系以及不同位置上实体的角色建模,并对关系进行细化分解以提升模型性能.同时,考虑到促进实体与关系间的信息流动有助于学习实体和关系的嵌入表示,提出窗口的概念,以增加实体与关系的交互.此外,证明了Typer模型具有完全表达性,并给出了使模型具有完全表达性的嵌入表示维度边界.在多个公开真实知识超图数据集上进行了详实的实验,实验表明Typer模型能有效解决知识超图链接预测问题,并在所有数据集上取得了较其他方法更好的结果.

格式:
文章
人机混合的知识图谱主动搜索

在知识图谱进行有效的搜索可以为智能问答、语义检索等智能应用提供有效支撑.然而,当用户不能给出明确的查询意图时,一个搜索系统要如何精准捕获用户的兴趣并找到对应的查询目标是项难题.人机混合的主动搜索为缓解用户和机器之间的理解鸿沟提供了桥梁.人机混合的主动搜索核心在于让机器主动地向用户提出相关的问题,从用户的反馈中获取信息,再基于这些信息对检索候选项进行搜索,形成人机混合的回路,最终精准定位用户意图并返回查询结果.在知识图谱表示学习技术的基础上,将知识图谱的搜索任务建模成向量空间中人机混合的主动搜索任务.具体来说,首先将知识图谱和用户的兴趣偏好嵌入到同一低维向量空间.然后,机器主动向用户提问,通过让用户对具体实体进行打分的方式获取相应的反馈信息,进而更新用户偏好在向量空间中的定位.设计了一种评价方式,基于偏好点与其他实体之间的欧氏距离来度量用户对某个实体的兴趣,最终在人机多轮交互后找到对应的目标实体返回给用户.在实验部分,对知识图谱的嵌入过程和主动搜索的过程分别进行了实验,实验结果显示,所提出的方法具有一定的效果.

格式:
文章
事理图谱及其金融应用

事理图谱是在本体层面引入事件后的知识图谱。事理图谱不仅是事件驱动的推理过程的载体,也可以成为自然语言语义的最自然的载体。承载可执行、可编程的动态语义是事理图谱的最大亮点,也是事理图谱在可预见的未来最有潜力的特性。事理图谱在资本市场的投研、风控和监管领域有巨大的应用价值,但这要与数据中台建设、数据治理和事件标签的标准化携手共进。

格式:
视频
知识图谱增强的科普文本分类方法

科普文本分类是将科普文章按照科普分类体系进行划分的任务。针对科普文章篇幅超过千字,模型难以聚焦关键信息,造成传统模型分类性能不佳的问题,提出一种结合知识图谱进行两级筛选的科普长文本分类模型,来减少主题无关信息的干扰,提升模型的分类性能。首先,采用四步法构建科普领域的知识图谱;然后,将该知识图谱作为距离监督器,并通过训练句子过滤器来过滤掉无关信息;最后,使用注意力机制对过滤后的句子集做进一步的信息筛选,并实现基于注意力的主题分类模型。在所构建的科普文本分类数据集(PSCD)上的实验结果表明,基于领域知识图谱的知识增强的文本分类算法模型具有更高的 F1-Score,相较于 TextCNN模型和 BERT模型,在 F1-Score上分别提升了2. 88个百分点和1. 88个百分点,验证了知识图谱对于长文本信息筛选的有效性。

格式:
文章
融合知识图谱和差分隐私的新闻推荐方法

针对已有融合知识图谱和隐私保护的推荐方法不能有效均衡差分隐私(DP)拉普拉斯噪声与推荐系统效率的问题,提出一种融合知识图谱和差分隐私的新闻推荐方法(KGPNRec)。首先,采用多通道知识感知的卷积神经网络模型(KCNN)融合新闻标题、知识图谱中实体和实体上下文等多维度的特征向量,以提高推荐的准确度;其次,利用注意力机制为不同敏感程度的特征向量添加不同程度的噪声,降低噪声对数据分析的影响;然后,对加权的用户特征向量添加统一的拉普拉斯噪声,保证用户数据的安全性;最后,在真实的新闻数据集上进行实验分析。实验结果表明,与融合知识图谱和隐私保护的多任务推荐(PPMTF)方法和基于深度知识感知网络(DKN)的推荐方法等对比方法相比,KGPNRec在保护用户隐私的同时能保证模型的预测性能。如在Bing News数据集上所提方法的曲线下面积(AUC)值、准确率和F1分数与PPMTF相比分别提高了0.019、0.034和0.034。

格式:
文章
融合知识图谱和深度学习方法的问诊推荐系统

近年来,随着互联网的普及和大数据分析等技术的发展,人们对移动医疗服务的需求越来越迫切,具体表现为根据症状确定自己患有的疾病以及根据疾病选择服务质量较好的医院及医生。为了解决上述问题,基于知识图谱和深度学习技术设计并实现了一种问诊推荐系统。基于互联网开放的医疗数据,构建了“疾病-症状”知识图谱,帮助用户根据症状自查,并以知识图谱嵌入模型训练知识图谱中实体的嵌入向量表示,根据向量的欧式距离相似度选取最相近的疾病实体丰富推荐选项,两者结合实现疾病诊断服务。同时,基于社交媒体的评论数据,结合现有的医疗服务质量评价指标,使用了深度学习的分析方法,自动给出医生的服务质量多维度的评分,为用户提供医生医院推荐服务。最后,通过构建测试集以及设计调查问卷等方式,验证了疾病诊断服务和医生医院推荐服务的准确率分别达到了74.00%和90.91%。

格式:
文章
融合知识图谱和短期偏好的推荐算法

近年来,将知识图谱作为辅助信息来增强推荐越来越受到研究者的关注。由于知识图谱学习任务的目标是还原知识图谱中三元组的关系,并非是以推荐任务为目标,导致了知识图谱学习任务很难高效地帮助推荐任务提升推荐性能。另外,用户兴趣易被短期的环境和心情所影响。针对以上两点,提出了一种融合了知识图谱信息和短期偏好的推荐模型(MKASR)。首先,通过RippleNet算法提取用户和知识图谱实体的关系对,然后将这些关系对按照知识图谱三元组的形式存储和参与训练;采用基于注意力机制的双向GRU网络从用户近期交互的物品序列中提取用户的短期偏好;其次,采用多任务学习的方法同时训练知识图谱学习模块和推荐模块,并得到用户和物品的特征表示;最后,通过这些特征表示和用户的短期偏好向用户综合推荐。在真实数据集MovieLens-1M和Book-Crossing上进行实验,采用AUC、ACC、Precision和Recall指标进行评估,实验结果表明,提出的模型优于其他的基准模型。

格式:
文章
知识图谱在海洋领域的应用及前景分析综述

知识图谱主要用于从复杂数据中抽取出关键信息以生成关系网络,其对于复杂关系出色的识别能力以及对于数据较强的描述能力使得知识图谱技术具有很高的应用价值。为给知识图谱在海洋领域的应用提供理论支撑,对知识图谱相关技术进行了总体概述。阐述Citespace文献分析工具的出色应用,针对海洋领域半结构化和非结构化数据抽取技术进行了系统整理,并分析了诸如命名实体识别、关系抽取、事件抽取、知识融合以及知识推理等关键性技术的原理及后续改进,对海洋领域应用知识图谱技术的落地场景及未来前景进行总结与展望。

格式:
文章
融合知识图谱与注意力机制的推荐算法

为了解决信息过载问题,提出了一种融合知识图谱与注意力机制的推荐模型。在该模型中,将知识图谱作为辅助信息进行嵌入,可以缓解传统推荐算法数据稀疏和冷启动问题,并且给推荐结果带来可解释性。为了提升推荐准确率以及捕捉用户兴趣的动态变化,再结合深度学习中的神经网络以及注意力机制生成用户自适应表示,加上动态因子来更好地捕捉用户动态兴趣变化,使用多层感知机对项目进行评分预测。在MovieLens-latest-small电影数据集和豆瓣数据集进行仿真验证,结果表明该模型进行TOP-K列表电影推荐相比于其他算法拥有更好的推荐性能。

格式:
文章
融合知识图谱的双线性图注意力网络推荐算法

知识图谱可有效缓解传统协同过滤中的数据稀疏和冷启动问题,因此,近年来在推荐系统中融入知识图谱的方法成为重要的探索方向。然而现有的方法大多将知识图谱的网络结构划分为单独路径或仅利用了一阶邻居信息,造成无法建立整个图上的高阶连通性问题。为解决该问题,提出融合知识图谱和图注意力网络的KG-BGAT模型,并设计了双线性采集器。双线性采集器能够在信息采集阶段获取节点间的特征交互信息,丰富节点表示;图注意力网络通过递归嵌入传播算法将各个节点表示沿图进行传播,能够捕获图中的高阶连通性。在MovieLens-1M数据集上进行了Top-K推荐实验,在推荐列表长度为20时,精确率、召回率和归一化折损累计增益分别为29.4%、24.9%、67.4%,超过了目前主流的CKE、RippleNet、KGCN等融合知识图谱的推荐算法。实验证明提出的方法能够有效提高推荐结果的准确性。

格式:
文章
基于可解释基拆解和知识图谱的深度神经网络可视化

近年来,以卷积神经网络(CNN)等为代表的深度学习模型,以其深度分层学习,无标签化学习等优势,已在图像识别为代表的各个领域得到日益广泛的应用.然而,深度神经网络模型由于其内在的黑盒原理,对其内部工作机制的解释仍然面临巨大挑战,其可解释性问题已成为了研究界和工业界的前沿性热点研究课题.针对现有研究存在的缺乏基于图谱的可解释性方法的问题,以及可解释基模型的图谱构建优势,本文提出了一种基于可解释基拆解和知识图谱的深度神经网络可视化方法.首先采用一种面向可解释基模型特征拆解结构的知识图谱构建方法,构建了场景和解释特征之间的解释关系和并列关系等图谱信息;利用场景-特征的解释关系网络,提出了一种基于Jaccard系数的场景间相似度聚类方法;针对现有可解释基模型对相似的场景,其解释特征重合率可能很高的问题,提出了一种基于场景的判别性特征提取方法,在特征拆解结果中能对每一类样本分别提取出能够区别此类和其他类并且拥有同等重要性的拆解特征(即判别性特征);针对现有可解释基的深度网络可视化测试缺乏保真度测试的问题,提出了一种适于深度神经网络的保真度测试方法.保真度测试和人类置信度测试,均表明本文所提方法可取得优异效果.

格式:
文章
基于医疗知识图谱的交互式智能导诊系统

针对在线问诊中患者主诉医疗信息表述多样化, 医疗知识利用不足的问题, 本文设计实现了基于医疗知识图谱的交互式智能导诊系统. 该系统引入医疗知识图谱提供导诊知识, 通过实体识别和实体链接技术规范化主诉文本中的医疗表述, 利用医疗实体生成知识图谱子图并获取子图语义信息, 融合子图和患者主诉的语义信息得到科室置信度. 当推荐科室置信度低时, 通过多轮交互问询的方式补充患者症状信息, 最终给出推荐科室. 该系统能够为建立快速精准智能医疗体系提供技术支持, 有效提升导诊效率, 缓解医疗资源紧张.

格式:
文章

本期编委成员

王鑫

天津大学人工智能学院副院长

祁丽娟

《软件学报》编辑部副主任

侯丽珊

《计算机研究与发展》编辑部主任

李亚辉

《计算机科学》编辑部主任

唐名威

《大数据》编辑部主任

何丽

《软件导刊》执行主编

舒风笛

《Journal of Computer Science and Technology》编辑部主任

聂卫东

《计算机应用》编辑部主任

袁璟

《计算机科学与探索》编辑部副总编辑

李刚

《计算机学报》编辑部主任

往期回顾